由先前的說明,可以下載Google Sheet 的資料為一個 *.csv 檔案,預期它會是一筆資料為一列以逗號分開欄位的文字,但有時候事情就是不會那麼簡單,而且通常不會那麼簡單。
資料通常需要經過清理後,調整成「結構化」的樣子,後續才可以使用,就如同前面所述,不但要結構化,還是把缺失值、不同類型的資料做一致的處理。
這個專案的資料來源還算清楚簡單,只有一個欄位也會是最容易遇到問題的一種欄位,就是一個資料欄內有多行的文字。在下載成為 *.csv 檔後,這類型的資料會直接「換行」並且把後續的分隔符號也一併截斷成一筆新的資料行。
直接使用,會變成有很多不連續且不知所云的資料集。
既然知道有這個特性,我們要做的也就很簡單:
一、預處理:把資料讀入,將需要修正不該換行的字元調整回來
二、以「|」為連接字元進行修訂
三、重新存成新的資料集
四、將資料讀入後預備後續分析
讀入處理可以以python 以最簡單的讀檔、判斷字元、處置然後存檔
資料讀入的方式有很多方式,這裏示範兩種:以csv package 以及panda package 來讀入
哪一種方式最簡便以及直覺,一看就知道~